Recent advances in safety-critical risk-aware control are predicated on apriori knowledge of the disturbances a system might face. This paper proposes a method to efficiently learn these disturbances online, in a risk-aware context. First, we introduce the concept of a Surface-at-Risk, a risk measure for stochastic processes that extends Value-at-Risk -- a commonly utilized risk measure in the risk-aware controls community. Second, we model the norm of the state discrepancy between the model and the true system evolution as a scalar-valued stochastic process and determine an upper bound to its Surface-at-Risk via Gaussian Process Regression. Third, we provide theoretical results on the accuracy of our fitted surface subject to mild assumptions that are verifiable with respect to the data sets collected during system operation. Finally, we experimentally verify our procedure by augmenting a drone's controller and highlight performance increases achieved via our risk-aware approach after collecting less than a minute of operating data.
translated by 谷歌翻译
Reinforcement Learning (RL) can solve complex tasks but does not intrinsically provide any guarantees on system behavior. For real-world systems that fulfill safety-critical tasks, such guarantees on safety specifications are necessary. To bridge this gap, we propose a verifiably safe RL procedure with probabilistic guarantees. First, our approach probabilistically verifies a candidate controller with respect to a temporal logic specification, while randomizing the controller's inputs within a bounded set. Then, we use RL to improve the performance of this probabilistically verified, i.e. safe, controller and explore in the same bounded set around the controller's input as was randomized over in the verification step. Finally, we calculate probabilistic safety guarantees with respect to temporal logic specifications for the learned agent. Our approach is efficient for continuous action and state spaces and separates safety verification and performance improvement into two independent steps. We evaluate our approach on a safe evasion task where a robot has to evade a dynamic obstacle in a specific manner while trying to reach a goal. The results show that our verifiably safe RL approach leads to efficient learning and performance improvements while maintaining safety specifications.
translated by 谷歌翻译
脚踝推断在很大程度上有助于人类步行的肢体能量产生,从而使运动更加顺畅,更有效。向截肢者提供这项净积极工作需要积极的假体,但有可能实现更自然的辅助运动。为此,本文将运动的多连接模型与基于力的非线性优化控制器一起使用,以实现2个受试者的动力转换假体,以实现类似人类的运动学行为,包括脚踝推断。特别是,我们利用基于模型的控制方法进行动态的双足机器人步行,以开发一种系统的方法,以实现不需要特定于主体的调整的动力假体上的人类行走。我们首先综合一个优化问题,该问题产生类似于人类联合轨迹的步态,并通过基于控制Lyapunov函数的基于lyapunov函数的非线性控制器实现这些步态,从。所提出的控制器是针对两个受试者的假体实施的,而无需在受试者之间进行调整,从而模拟了假体关节的特定主体人类运动学趋势。这些实验结果表明,与传统方法相比,我们基于力的非线性控制方法可以更好地跟踪人类运动轨迹。
translated by 谷歌翻译
在充满活力的腿部运动领域,实现稳定的跳跃一直是一个标志性的挑战。由于长期不足,因此,受控跳跃非常困难,加上非常短的地面阶段,必须调节地面相互作用以调节全球状态。在这项工作中,我们探讨了混合非线性模型预测控制的使用,并与多速率层次结构中的低级反馈控制器配对,以在新颖的3D跳架机器人上实现动态稳定的运动。为了在旋转的多种状态上展示更丰富的行为,规划和反馈层都必须以几何一致的方式完成。因此,我们开发了采用谎言组集成商和适当的反馈控制器的必要工具。我们在实验上证明了在新型机器人上稳定的3D跳,以及模拟中的轨迹跟踪和翻转。
translated by 谷歌翻译
在双皮德机器人上生成健壮步态的能力是他们在硬件上成功实现的关键。为此,这项工作扩展了混合零动力学(HZD)的方法 - 传统上,该方法仅在完美影响事件下通过周期性限制来说明机车稳定性 - 通过包含盐矩阵,以构成合成强大的步行步态的观点。通过共同将扩展盐矩阵的规范和步态生成过程中的机器人的扭矩最小化,我们表明合成的步态比单独使用任何一个术语产生的步态更强大。这些结果在模拟和硬件中显示了琥珀色3M平面和阿塔兰特较低体外外骨骼(无论有没有人类)。最终结果是实验验证,即将盐矩阵与HZD方法相结合,在实践中会产生更健壮的两足步行。
translated by 谷歌翻译
本文介绍了一个框架,用于合成双皮亚机器人步行,该框架通过数据驱动的台阶(S2S)动力学模型适应未知环境和动态误差。我们首先合成一个S2S控制器,该S2S控制器使用脚部的S2S动力学从混合线性倒置摆(H-LIP)模型中稳定步行。接下来,通过经典的自适应控制方法在线学习了机器人S2S动力学的数据驱动表示。因此,通过适当的连续输出合成捕获数据驱动的S2S控制器和低级跟踪控制器,可以通过适当的连续输出合成来实现所需的离散脚放置。所提出的方法是在仿真的3D两足机器人,Cassie和改进的参考速度跟踪的模拟中实现的。所提出的方法还能够实现步行行为,以适应未知载荷,不准确的机器人模型,外部干扰力,偏置速度估计和未知斜率。
translated by 谷歌翻译
机器人系统的功能需求通常需要在干扰或不确定环境的影响下完成各种任务或行为。越来越多的兴趣是动态机器人的自主权,例如多电动器,汽车和腿部平台。在这里,干扰和环境条件可能会对单个动态行为的成功表现产生重大影响,称为“运动原始人”。尽管如此,通过合适的运动原语切换和过渡可以实现鲁棒性。本文通过提出运动原始动力学的抽象和相应的“运动原始传递函数”来贡献这种方法。由此,构建了混合的离散和连续的“运动原始图”,并详细介绍了能够在线搜索该图的算法。结果是一个能够实现动态系统的整体鲁棒性的框架。这是针对四足动物机器人的一组运动原语的实验证明的,受到各种环境和故意干扰。
translated by 谷歌翻译
人类能够以显着的敏捷性和轻松的方式谈判计划和计划外行为。本文的目的是系统地研究这种人类行为向两足步行机器人的翻译,即使形态本质上不同。具体而言,我们从计划和计划外的下台开始的人类数据开始。我们从人类减少阶层建模的角度分析了这些数据,编码质量(COM)运动学和接触力的中心,这使这些行为将这些行为转化为双皮德机器人的相应降低阶模型。我们通过基于非线性优化的控制器将所得的行为嵌入了两足机器人的全阶动力学中。最终结果是在不足的步行机器人上模拟中计划和计划外的下台。
translated by 谷歌翻译
机器人系统的参数调整是一项耗时且具有挑战性的任务,通常依赖于人类操作员的领域专业知识。此外,由于许多原因,现有的学习方法不适合参数调整,包括:缺乏“良好机器人行为”的明确数值指标;由于依赖现实世界实验数据而导致的数据有限;以及参数组合的较大搜索空间。在这项工作中,我们提出了一种开源MATLAB偏好优化和用于系统探索高维参数空间的机器人工具箱(Polar)的学习算法,该算法使用基于人类的基于人类偏好的学习。该工具箱的这个目的是系统,有效地实现两个目标之一:1)优化人类操作员偏好的机器人行为; 2)学习操作员的基本偏好格局,以更好地了解可调参数和操作员偏好之间的关系。极性工具箱仅使用主观反馈机制(成对的偏好,共同反馈和序数标签)来实现这些目标,以推断出贝叶斯后验,而不是基本的奖励功能决定用户的偏好。我们证明了工具箱在模拟中的性能,并介绍了基于人类偏好的学习的各种应用。
translated by 谷歌翻译
小型航空车的重量,空间和功率限制通常会阻止现代控制技术的应用,而无需简化大量模型。此外,高速敏捷行为(例如在无人机赛车中表现出来的行为)使这些简化的模型过于不可靠,无法安全至关重要。在这项工作中,我们介绍了时变备份控制器(TBC)的概念:用户指定的操作与备份控制器相结合,该备份控制器生成了参考轨迹,从而确保了非线性系统的安全性。与传统的备份控制器相比,TBC减少了保守主义,可以直接应用于多机构协调以确保安全性。从理论上讲,我们提供了严格减少保守主义的条件,描述了如何在多个TBC之间切换并显示如何将TBC嵌入多代理设置。在实验上,我们验证TBC在过滤飞行员的动作时会安全地增加操作自由,并在将两个四肢的分散安全过滤应用于分散的安全过滤时,证明了稳健性和计算效率。
translated by 谷歌翻译